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语音 识别 技术 在 广播 电视 监测 中 的 应 用 


摘 要 : 现 如 今 ， 科 学 技术 飞速 发 展 ， 广 播 电视 作 为 传统 媒体 早已 成 为 人 们 接收 新 闻 信 息 的 常用 途径 ， 在 推动 广播 电视 监测 
监管 业务 迅速 进步 方面 ， 最 为 高 效 的 做 法 就 是 将 语音 识别 技术 融入 到 广播 电视 监测 监管 之 中 ， 从 而 有 效 提 升 广播 电视 监测 监 
管 工 作 的 质量 及 效率 。 基 于 此 ， 为 能 够 确保 广播 电视 监测 监管 事业 的 莲 勃 发 展 ， 理 应 对 广播 电视 监测 监管 业务 中 ， 语 音 识 别 
技术 的 应 用 和 探索 给 予 必 要 的 关注 和 重视 。 
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引言 时 ， 矢 量 量化 、 隐 马尔 科 夫 模型 理论 得 到 进一步 完善 ， 为 
二 当前 ， 电 磁 环 境 越 来 越 复 杂 ， 如 何 有 效 利用 无 线 电 语音 识别 技术 的 进步 葛 定 了 良好 的 基础 。 在 20 世纪 80 年 
< 村 频率 资源 ， 最 大 限度 地 提升 广播 电视 视频 业务 的 综合 质 。 代 ， 相 关 人 员 更 加 深入 地 探究 了 语音 识别 技术 ,提出 了 
LO 量 ， 充 分 优化 频谱 资源 的 优化 配置 以 更 好 地 为 人 民 群 众 ” 多 种 语音 识别 算法 ,最 为 显著 的 成 就 为 人 工 神经 网 络 与 
| 提供 广播 电视 服务 ， 这 些 都 是 广播 电视 监测 监管 人 员 需 。 HMM 模型 。 在 20 世纪 90 年 代 ,， 语音 识别 技术 得 到 更 加 
© 要 负责 的 重要 工作 。 具 体 来 说 ,语音 识别 技术 是 指 借助 ” 广泛 的 应 用 ,更 多 的 科技 互联 网 公司 均 在 语音 识别 技术 的 
| 某 种 算法 ， 通 过 计算 机 来 识别 语音 信号 ， 且 把 这 些 信 号 。 研究 与 开发 上 投入 了 庞大 的 资金 。 进 入 21 世纪 后 ， 对 于 
一 转换 成 文本 的 技术 。 对 于 现 阶段 的 语音 识别 技术 来 说 ， 语音 识别 技术 的 研究 ， 主 要 是 对 多 种 语种 的 同 声 翻译 、 即 
CO 广播 新 闻 的 识别 率 为 90% 左右 ， 其 中 语音 识别 技术 涵盖 ” 兴 口 语 及 自然 对 话 进行 重点 研究 中。 
四 关键 词 识别 技术 、 模 糊 语音 技术 等 多 种 技术 。 说 话 人 识 2. 语音 识别 方法 
CN 别 技术 也 指 声 纹 识 别 技术 ， 结 合 语音 信号 对 说 话 人 身份 语音 识别 技术 常用 的 方法 有 : (1) 基于 语言 学 与 声 
~ 进行 识别 ; 关键 词 识别 技术 指 借助 文本 信息 来 获取 关键 ”学 的 方法 。 这 种 方法 在 语音 识别 技术 中 得 到 最 早 运用 ， 
S< 词 。 在 广播 电视 监测 业务 中 运用 语音 识别 技术 ,能够 对 然而 该 方法 涵盖 的 知识 十 分 匮乏 ， 这 就 造成 现 如 今 这 一 
© 语音 信号 的 特点 做 出 针对 性 的 判断 ， 并 智能 化 地 识别 频 ”方法 仍 就 没有 得 到 大 范围 应 用 ;(2 ) 随 机 模型 法 。 现 如 今 ， 
CS 谱 占 用 情况 , 以 此 为 基础 有 效 监 管 广播 电视 的 播 出 内 容 。 随机 模型 法 已 得 到 比较 成 熟 的 应 用 ， 这 种 方法 选择 提取 
CS 1. 语音 识别 技术 特征 、 训 练 模块 、 分 类 模块 、 判 断 模块 的 步骤 来 识别 语 
© 语音 识别 技术 作为 一 门 综 合 性 交叉 型 的 学 科 , 涵盖 。 音 , 涉及 了 隐 马 尔 科 夫 模型 (HMM ) 理论 、 动 态 时 间 规 


了 多 种 领域 的 学 科 知 识 。 随 着 科学 技术 的 进步 ， 语 音 识 
别 技术 得 到 广泛 运用 。 这 项 技术 利用 把 输入 的 声 信号 转 
化 成 其 所 对 应 的 命令 或 是 文字 的 一 种 现代 化 技术 ,借助 
语音 识别 技术 ,可 以 不 用 传统 的 键盘 、 鼠 标 等 操作 设备 ， 
只 需 利用 语言 就 能 够 发 号 施 令 ， 从 而 更 加 简便 快捷 地 完 
成 在 多 种 情况 下 的 任务 ， 这 项 技术 在 社会 中 具有 十 分 重 
要 的 作用 "。 

自 开 始 研 究 语音 识别 技术 到 现在 ， 语 音 识 别 技术 的 
发 展 已 有 超过 半 个 世纪 的 历史 。 最 开始 对 于 语音 识别 技术 
的 研究 只 是 Audry 系统 的 研究 ， 其 是 那个 阶段 第 一 个 能 够 
得 到 几 个 英文 字母 的 系统 。 在 20 世纪 60 年 代 ， 计 算 机 技 
术 得 到 发 展 ,促进 了 语音 识别 技术 进一步 发 展 ， 利 用 线性 
预测 分 析 技 术 与 动态 规划 技术 能 够 对 语音 信号 出 现 的 模型 
问题 进行 有 效 解决 ， 这 一 技术 是 语音 识别 中 最 为 关键 的 技 
术 。 到 了 20 世纪 70 年 代 ， 语 音 识别 技术 获得 重大 突破 ， 
表现 在 动态 时 间 规 整 技 术 基 本 成 熟 ， 让 语音 能 够 等 长 ， 同 


整 (DTW ) 、 矢 量 量 化 (VQ ) 技术 ， 其 中 最 为 简便 优质 
的 技术 为 隐 马 尔 科 夫 模 型 算法 ， 其 在 语音 识别 性 能 上 更 
加 优异 ， 所 以 大 多 数 语音 识别 系统 都 选择 隐 马 尔 科 夫 模 
型 ;， (3 ) 神经 网 络 的 方法 。 这 一 方法 是 在 语音 识别 发 展 
的 后 期 出 现 的 一 种 新 的 识别 方法 ， 其 能 够 对 人 类 的 神经 
活动 进行 模拟 ， 并 具备 人 的 一 些 特性 ， 例 如 自主 学 习 和 
自动 适应 等 ， 其 归 类 能 力 与 映射 能 力 比 较 强 ， 在 语音 识 
别 技术 中 具备 较 高 的 利用 价值 ， 在 行业 中 通过 有 机 结合 
神经 网 络 与 传统 的 方法 ， 取长补短， 从 而 在 极 大 程度 上 
提升 语音 识别 的 效率 站，( 4 ) 概率 语法 分 析 法 。 这 种 方 
法 属于 一 种 可 以 识别 大 长 度 语 段 的 技术 ， 能 够 实现 区 别 
语言 的 特征 ， 借 助 多 种 层次 的 知识 来 解决 多 种 层次 的 问 
题 ， 但 是 这 种 方法 也 存在 一 些 不 足 ， 最 为 明显 的 是 需 
构建 合适 、 有 效 的 适用 知识 系统 。 
3. 语音 识别 程序 

语音 识别 程序 主要 包括 : (1 ) 语 音 识别 的 工作 模式 : 
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主要 为 命令 模式 与 识别 模式 ,结合 这 两 种 模式 的 区 别 来 语音 识别 技术 利用 语音 波形 对 人 的 行为 特点 进行 分 
选择 对 应 类 型 的 程序 ， 从 而 实现 语音 识别 程序 ;识别 模 析 ， 从 而 识别 出 讲话 人 的 身份 。 一 方面 ， 对 于 讲话 人 身 
式 的 工作 原理 为 引擎 系统 在 后 台 直 接 提 供 一 个 词 库 与 识 。 份 的 识别 ， 可 评 佑 出 说 话 人 ; 男 一 方面 ， 需 要 评估 判定 
别 模块 库 ， 所 有 系统 无 需 进 一 步 改动 识别 语法 ， 只 需 结 。” 某 一 个 语音 是 否 为 指定 人 声 。 语 音信 号 始终 是 开展 声 纹 
合 识别 引擎 所 具备 的 主 程序 源 代码 加 以 改写 就 能 够 完 。 识别 的 基础 所 在 ,依据 一 个 人 的 发 音 特 点 对 说 话 人 的 性 
成 ; 与 之 相 比 ,命令 模式 比较 难以 实现 ， 必 须 由 程序 员 。 格 特征 进行 掌握 。 作为 生物 因子 认证 范畴 内 的 重要 内 容 ， 
来 编写 词典 ， 再 加 以 编程 ， 然 后 结合 语音 词典 进行 更 正 。 声 纹 识别 和 我 们 较为 熟悉 的 指纹 有 一 定 的 相通 之 处 ， 都 


与 处 理 ; 命令 模式 与 识别 模式 最 大 的 区 别 是 程序 员 应 结 
合 词典 内 容 来 修改 和 核对 代码 ; (2 ) 语 音 识别 环境 设置 。 
通常 语音 识别 程序 的 环境 设置 主要 有 : CTI 服务 器 硬件 
默认 参数 采集 和 设 定 、 识 别 硬件 采集 卡 初始 化 、 引 擎 端 
口 设置 等 ， 其 中 应 用 程序 的 全 部 工作 均 要 结合 CTI 技术 
来 开展 工作 ; 对 于 语音 采集 系统 的 初始 化 ， 语 音 识别 的 。 的 分 析 、 鉴 别 , 主要 目标 是 对 语音 信号 承载 内 容 的 判断 。 
平台 可 通过 对 是 否 已 经 输入 语音 进行 判断 来 开展 工作 ， 但 是 在 内 容 识别 方面 仍然 存在 一 定 的 提升 空间 ， 如 发 音 
再 利用 语音 采集 系统 获得 语音 ， 同 时 利用 语音 卡 来 对 语 习惯、 方言 等 ， 都 对 识别 效果 有 着 直接 的 影响 ， 对 于 这 
音 进 行 输出 与 采集 ; 在 实际 工作 中 ， 将 语音 卡 中 具备 的 ”一 问题 的 处 理 ， 可 利用 声 纹 识别 加 以 解决 。 为 能 够 使 语 
板 卡 打开 ， 再 在 程序 中 加 入 参数 就 能 够 运行 ， 对 于 引擎 法、 语义 和 声 纹 相 一 致 ， 需 要 借助 词性 标记 、 词 语 区 分 、 
端口 设置 ， 语 音 开发 平台 提供 了 硬件 API 接口 函数 ,这 语 境 理解 等 综合 判定 语音 内 容 ， 不 过 整体 上 来 说 ， 其 需 
样 做 只 需要 调用 与 赋值 函数 就 能 够 运行 ，( 3 ) 编译 语 ” 要 在 短 时 间 内 做 出 大 量 的 对 比 判断 。 

音字 典 。 对 于 语音 字典 的 设置 ， 主 要 内 容 有 : 识别 语音 。 4. 3 语种 与 语音 的 分 辨 

的 规则 、 语 法 、 语 音 模板 制作 等 ， 结 合 语音 平台 的 标准 语种 识别 指 对 语音 材料 兼容 的 语种 特点 进行 评估 ， 
来 开展 。 对 于 语音 字典 的 设置 ， 应 先 对 语音 识别 核心 包 进 ” 在 语种 识别 的 基础 上 进一步 研究 而 得 到 语音 内 容 判 断 与 
行 设 置 ， 再 结合 自己 编译 的 语言 标准 来 实现 字典 的 设置 ; 智能 翻译 技术 。 同 时 ， 语 种 识别 可 以 评估 计算 机 中 多 种 
(4) 编制 识别 主 程序 。 这 是 语音 识别 程序 编译 的 最 后 环 ”语音 材料 ， 通 过 识别 系统 对 语音 材料 加 以 提取 是 该 技术 
节 ， 程 序 员 应 为 主 程序 的 Graphical User Interface 界面 进行 主要 应 用 的 方法 。 与 此 同时 ， 标 准 语音 模型 和 个 人 话音 
编写 ， 从 而 方便 使 用 者 和 计算 机 开展 交互 操作 中。 的 对 比 ， 是 语音 评估 标准 判定 过 程 中 明确 不 标准 发 音 的 


是 根据 人 体 生 物 特征 来 加 以 评估 的 。 所 不 同 的 是 ， 声 纹 
识别 主要 是 依照 说 话 人 的 特征 加 以 针对 性 的 识别 
4. 2 内 容 辨识 

这 里 我 们 所 介绍 的 内 容 辨 识 主 要 是 指 ， 以 语音 的 生 
理 属 性 、 物 理 属性 为 出 发 点 ， 结 合 其 内 容 来 进行 针对 性 
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除 此 之 外 ， 现 如 今 国 内 外 提供 语音 识别 技术 的 厂商 
非常 多 ,本文 对 语音 识别 平台 进行 了 横向 对 比 ， 具 体 见 
表 1。 结 合 表 1 的 内 容 可 以 认识 到 商家 的 语音 识别 技术 都 
有 一 定 的 优势 和 特点 ， 企 业 可 结合 相应 的 应 用 场景 来 选 
择 恰当 的 语音 识别 技术 。 


主要 手段 。 


5. 语音 识别 技术 在 广播 电视 监测 的 具体 应 用 


5.1 具体 应 用 内 容 


现 阶 段 ， 随 着 语音 识别 技术 的 不 断 突破 和 发 展 ， 自 


动 化 语音 识别 技术 的 应 


j， 可 以 帮助 我 们 针对 公 


E 地 判断 


4. 广播 电视 监测 监管 中 语音 识别 技术 的 价值 
4.1 声 纹 识 别 


广播 频率 节目 播 出 的 实时 状态 ， 并 从 中 提取 关键 数据 信 
息 ， 从 而 对 语音 类 型 和 语种 进行 分 析 ， 并 对 言语 信和 号、 


表 1 横向 比较 语音 识别 技术 


语音 识别 技术 支持 平台 在 线 离线 收费 方式 具体 特征 
微软 Speech API Windows 一 离线 免费 Msdn 支撑 
Google Speech API Web 在 线 写 免费 仅 可 用 于 Web 在 线 调 用 
百度 语音 IOS IAndroid IWeb 在 线 离线 免费 用 于 普通 话 、 粤 语 、 四 川 话 
搜狗 语音 IOS IAndroid 一 离线 免费 用 于 普通 话 、 粤 语 
微 信 语 音 IOS IAndroid 在 线 时 免费 准确 率 超过 90% 
ce IOS IAndroid |Web [Windows 有 、 
云 知 声 请 在 线 离线 收费 音频 转 写 有 时 间 轴 功能 
inux 
站 用 于 普通 话 、 粤 语 及 四 川 话 ， 
ee IOS | Android | WinPhone | 、 
讯 飞 开放 平台 在 线 离线 免费 识别 准确 率 在 95% 以 上 ， 全 平 


Web | Java [Windows | Linux 
和 
[a sdk 


| 传媒 靶 术 


202310.01654v1 


chinaXiv 


静音 和 噪音 进行 分 析 ， 从 而 实现 频道 中 多 个 频谱 能 够 同 
时 使 用 语音 识别 技术 进行 充分 研究 。 同 时 ,广播 电视 监 
测 中 引入 了 电视 内 容 监测 与 语音 识别 ， 这 就 大 大 降低 了 
人 力 资源 方面 的 投入 ， 极 大 地 提升 了 广播 电视 监测 监管 
效率 "。 具 体 表现 在 以 下 几 个 方面 : 〈1 ) 电视 监测 方面 。 
通过 该 技术 的 灵活 应 用 ， 可 以 有 效 构建 语音 模板 、 文 字 
模板 ， 进 而 实现 特定 语音 的 识别 以 及 特定 文字 的 识别 ， 
并 进行 实时 录像 ， 从 而 准确 判断 广播 电视 播 出 异 态 ; 然 
后 借助 监测 监管 系统 将 异 态 上 报 给 监测 席位 ， 且 发 出 预 
警 信号 ， 以 便 工 作 人 员 进 行 及 时 有 效 的 处 理 ， 确 保 广播 
电视 安全 播 出 ; 在 广播 电视 监测 中 运用 语音 识别 技术 ， 
可 将 系统 判断 率 提升 至 99%， 实 现 广播 电视 监测 智能 化 ; 
(2 ) 广播 监测 方面 。 在 广播 电视 监测 中 语种 识别 技术 具 
有 十 分 关键 的 意义 ， 由 于 国外 电台 在 我 国 的 播音 时 间 和 
语种 很 多 ， 需 要 人 花费 大 量 的 人 力 和 时 间 来 利用 人 工 对 这 
些 语种 和 播音 时 间 进 行 实时 判断 ; 针对 上 述 问题 ， 我 们 
可 以 通过 卫星 实现 语音 识别 库 的 搜集 和 接收 ,然后 通过 
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方位 的 监听 服务 支持 ， 系 统 会 在 信号 异常 的 情况 下 自动 
发 出 警报 , 避免 由 于 信号 故障 等 问题 所 导致 的 音频 丢失 
还 可 以 根据 具体 播 出 时 间 来 调整 录音 时 间 ; 〈4 ) 视频 信 
号 采集 站 。 在 实际 的 应 用 过 程 中 能 够 实现 8 路 电视 信号 
的 采集 和 记录 。 操 作 中 ， 利 用 视频 信号 采集 站 完整 复合 
电视 信号 的 音频 信号 码 。 一 般 来 说 ， 可 以 任意 选择 压缩 
人 码 , 并 结合 频道 播 出 时 间 独 立 设计 每 个 频道 的 采 录 时 间 。 
在 具体 的 采 录 过 程 中 ， 通 常 以 MPEG 压缩 格式 进行 。 页 
面 可 以 呈现 出 所 有 视频 图 像 且 监听 视频 信号 ; 同时 ， 对 
各 路 信号 的 饱和 度 、 色 度 及 对 比 度 进行 整体 调节 ， 以 确 
保 采 录 质 量 ”。 
结语 

总 而 言 之 ， 对 于 广播 电视 监测 监管 人 员 而 言 ， 无 线 
电 频 率 管 理 和 监测 监管 工作 至 关 重 要 ， 随 着 无 线 电 技术 
得 到 普及 ， 无 线 电 频率 资源 日 趋 紧张 ， 广播 电视 监测 监 
管 工作 也 同样 开始 朝 着 全 自动 化 方向 发 展 ， 这 就 需要 有 
效 运用 语音 识别 技术 ， 提 升 广播 电视 监测 的 工作 质量 


录制 音频 和 语音 库 中 数据 的 对 比 , 判断 出 所 述 语言 种 类 。 
不 过 由 于 语音 物理 数据 差异 较 大 ， 因 此 ， 语 言 判 断 应 用 


效率 。 因 此 ， 为 能 够 确保 广播 电视 监测 监管 事业 的 莲 厚 
发 展 ， 必 须 注 重 并 加 强 语音 识别 技术 在 广播 电视 监测 中 


在 实际 的 使 用 过 程 中 仍然 存在 一 定 的 问题 。 同 时 ， 将 音 
频 指 纹 相 近 度 法 引入 语音 识别 中 来 ， 可 以 通过 大 量 的 学 
习 而 适应 滤波 器 ， 具 有 信道 模型 的 功能 。 
5.2 实际 案例 

主要 内 容 有 : (1 ) 信号 解 调 设备 。 待 系统 完成 监测 
言 号 源 解 调 工 作 之 后 ， 将 会 根据 实际 情况 调用 调幅 广播 
解 调 器 、 有 线 电 视 解 调 器 以 及 调频 广播 解 调 吉 ， 从 而 将 
所 搜集 到 的 广播 电视 信和 号 解 调 为 普通 音频 信号 ， 然 后 通 
过 搜集 站 对 这 些 音频 信号 进行 录音 。 具 体 的 解 调 器 和 调 
频 广播 的 数量 , 可 按照 监测 频道 数量 进行 针对 性 的 选择 ; 
(2 ) 信 号 预 处 理 设备 ,为 最 大 限度 地 提升 信号 的 判断 效果 ， 
可 以 引入 AQC4 信号 预 处 理 设备 ， 这 样 就 可 以 通过 该 设 
备 对 音频 信号 进行 预 处 理 ， 然 后 通过 控制 信号 处 理 器 对 
语音 信号 加 以 进一步 的 处 理 ， 修 正信 号 失真 ， 为 后 续 操 
作 提 供 必 要 的 信号 源 文件 ， 进 而 完成 对 频道 内 容 的 监测 
和 监管 ; (3 ) 多 路 信号 搜集 站 。 如 上 文 所 述 ， 通 过 有 线 
电视 解 调 器 可 解 调 影像 和 伴音 ， 从 而 形成 能 够 为 系统 所 
识别 的 视频 信号 和 模拟 音频 信号 ， 然 后 通过 信号 搜集 站 
对 其 进行 记录 ,具体 的 有 线 电视 解 调 器 数量 可 按照 监测 
频道 数量 进行 恰当 安排 ， 除 此 之 外 ， 多 路 监测 信号 搜集 
站 可 以 对 广播 音频 信号 和 电视 信号 进行 接收 ， 对 信号 进 
行 搜集 和 压缩 ， 然 后 存储 到 服 区 前 阵列 柜 中 ， 其 中 搜集 
站 可 分 为 广播 信号 和 电视 信和 号 两 种 搜集 站 ， 前 者 能 够 同 
时 进行 所 有 广播 信号 的 采集 和 记录 ， 并 实时 呈现 音量 ， 
配合 软 调 音 台 不 仅 能 够 实现 对 信号 增益 水 平 的 有 效 控制 ， 
而 且 可 以 实现 对 所 有 输入 信和 号 的 完整 监控 ， 定 时 设计 了 
采集 和 记录 时 间 表 , 以 确保 采集 和 记录 的 及 时 性 、 合 理性 ， 
极 大 提升 了 系统 的 整体 运行 效率 水 平 ， 并 且 能 够 提供 全 


有 效 、 合 理 及 大 范围 的 应 用 。 首 
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